Phông chữ và bảng mã ký tự Tiếng_Việt_và_máy_tính

Bảng chữ cái tiếng Việt

Việc 2 dấu phụ được đặt lên một nguyên âm đơn là chuyện thường thấy trong Tiếng Việt. Một số phông thì chồng các dấu phụ thẳng đứng, nhưng số khác thì xê dịch dấu giọng sang bên.

Có đến tận 46 bảng mã ký tự (character encoding) để thể hiện bảng chữ cái tiếng Việt.[1] Unicode đã trở thành bảng mã phổ biến nhất do tính tương thích ưu việt cùng với hỗ trợ phần mềm của nó. Các dấu phụ có thể được biên mã trở thành hoặc là ký tự tổ hợp (en) hoặc là ký tự dựng sẵn (en), cả hai loại ký tự này đều được bố trí rải rác tựu trung các khối Latin Mở rộng A (en), Latin Mở rộng B (en), và Latin Mở rộng Thêm (en). Biểu tượng Việt Nam Đồng (₫) thì được biên mã trong khối Biểu tượng Tiền tệ. Trong quá khứ, tiếng Việt từng sử dụng các ký tự nằm ngoài bảng chữ cái hiện đại. Chữ cái B đuôi quặp (ꞗ) của tiếng Việt Trung đại thì được bao gồm bên trong khối Latin Mở rộng D (en). Dấu apex (en) chưa được bao gồm trong Unicode, nhưng có thể dùng U+1DC4 ◌᷄ Combining macron-acute làm thay cho dấu apex khá giống.

Các phiên bản Unicode ban đầu có chỉ định 2 ký tự U+0340 ◌̀ Combining grave tone mark và U+0341 ◌́ Combining acute tone mark (lần lượt ứng với dấu huyềndấu sắc) nhằm mục đích đặt mấy dấu đấy nằm một bên dấu mũ (circumflex) vì đây là điều thường thấy trong typography tiếng Việt. Hai ký tự đấy đã bị thôi dùng; thay vào đó, U+0301 ◌́ Combining acute accent và U+0300 ◌̀ Combining grave accent giờ được sử dụng bất chấp dấu mũ hiện diện nào.[2]

Cho những hệ thống thiếu sự hỗ trợ Unicode, thì hàng tá trang mã (en) tiếng Việt 8-bit đã được thiết kế.[1] Trong số đó có VISCII, VSCII (TCVN 5712:1993), VNI, VPSWindows-1258 là thông dụng nhất.[3][4] Ở những chỗ đòi hỏi ASCII, thí dụ khi phải đảm bảo tính khả đọc cho văn bản thuần trong e-mail, thì chữ cái tiếng Việt hay được biên mã dựa theo Vietnamese Quoted-Readable (VIQR) hoặc VSCII Mnemonic (VSCII-MNEM),[5] tuy vậy sở dụng của cả hai cách thức này đã sụt giảm đáng kể theo sau sự thông qua việc dùng Unicode trên World Wide Web. Chẳng hạn, sự hỗ trợ cho tất cả các bảng mã 8-bit được nói đến ở trên (ngoại trừ Windows-1258) đã bị bỏ hẳn khỏi phần mềm Mozilla trong năm 2014.[6]

Nhiều phông Việt làm dành cho việc chế bản điện tử (en) thì được biên mã bằng VNI hoặc TCVN3 (VSCII).[4] Những phông như vậy được gọi là "phông ABC" hay "ABC font".[7] Các trình duyệt web phổ biến đều thiếu vắng sự hỗ trợ cho những bảng mã tiếng Việt chuyên biệt như vậy, cho nên ở trên những hệ thống mà không cài đặt những font đấy, nếu bất kỳ trang web nào mà sử dụng những phông đấy thì đều sẽ bị hiển thị thành nội dung mojibake (chữ ma, loạn mã) không thể hiểu nổi.

Ở bên phải có chữ í nhưng giữ nguyên dấu chấm tittle.

Tiếng Việt thường xuyên xếp chồng dấu phụ, cho nên nhà thiết kế kiểu chữ phải cẩn thận để phòng ngừa 'các dấu phụ xếp chồng' khỏi bị va đụng với các chữ cái hoặc đường kẻ liền kề. Khi dấu giọng được dùng chung với một dấu phụ khác, thì phải xê dịch dấu giọng đấy sang bên phải để bảo toàn tính nhất quán và tránh làm chậm saccade[lower-alpha 2].[8] Trong biển hiệu quảng cáo và trong thể chữ thảo, dấu phụ thường hay có dạng xa lạ với các bảng chữ cái Latin khác. Cho ví dụ, 'mẫu tự I viết thường' giữ nguyên dấu chấm tittle trong ì, ỉ, ĩ, và í.[9] Các sắc thái này hiếm được tính đến trong môi trường điện toán.

Lối tiếp cận

Việc viết tiếng Việt đòi hỏi 134 mẫu tự cộng thêm (cả viết hoa lẫn viết thường) bên cạnh 52 mẫu tự đã hiện diện trong ASCII.[10] Như vậy là vượt quá 128 ký tự phụ thêm sẵn có trong bảng mã ASCII mở rộng thường quy. Cho dù vấn đề này có thể được giải quyết bằng cách dùng bảng mã độ rộng biến thiên (en) (như các bảng mã Tiếng Trung, Tiếng Nhật hoặc UTF-8 đã làm), thì một số lượng các lối tiếp cận riêng đã được các bảng mã khác sử dụng để hỗ trợ tiếng Việt thay vì làm thế:

  • Thay thế ít nhất 6 ký tự ASCII, lựa những ký tự hoặc là ít thông dụng trong tiếng Việt, và/hoặc là mang tính phi bất biến[lower-alpha 3] trong ISO 646 hoặc DEC NRCS[10] (như trong VNI for DOS).
  • Loại bỏ các mẫu tự in hoa mà ít được dùng thường xuyên nhất,[10] hoặc loại bỏ tất cả các mẫu tự in hoa có dấu giọng (như trong VSCII-3 (TCVN3)). Các mẫu tự in hoa đấy vẫn có thể được bù đắp qua phương tiện bộ phông chữ hoa riêng biệt.[11]
  • Loại bỏ các dạng mẫu tự Y có dấu giọng, ép buộc sử dụng mẫu tự I trong những tình huống có thể dùng Y có dấu. Lối tiếp cận này đã bị những nhà thiết kế VISCII bác bỏ trên cơ sở rằng bảng mã ký tự không nên cố giải quyết vấn đề cải cách chính tả.[10]
  • Thay thế ít nhất 6 ký tự điều khiển C0 (en)[10] (như trong VISCII, VSCII-1 (TCVN1) và VPS).
  • Sử dụng ký tự tổ hợp, cho phép một nguyên âm có dấu được thể hiện đầy đủ bằng cách dùng dãy các ký tự cho chúng tổ hợp với nhau (như trong VNI, VSCII-2 (TCVN2), Windows-1258ANSEL).

Chữ Nôm

Ký tự nôm ứng với từ phở là 𬖾.[12]

Unicode chứa hơn 10.000 ký tự nôm[lower-alpha 4] làm thành bộ phận của tự vựng (repertoire) Văn tự biểu ý Thống nhất CJK (en). Trong số những ký tự đó, có 5.260 ký tự[lower-alpha 5] được đặt trong khối Chữ biểu ý Thống nhất CJK Phần mở rộng B (en), còn phần còn lại thì được phân phối tựu trung các khối Chữ biểu ý Thống nhất CJK (en), Chữ biểu ý Thống nhất CJK Phần mở rộng A (en), và Chữ biểu ý Thống nhất CJK Phần mở rộng C (en). Có 1.028 ký tự thêm nữa – gồm hơn 400 ký tự đặc thù cho Tiếng Tày – được biên mã trong khối Chữ biểu ý Thống nhất CJK Phần mở rộng E (en). Các ký tự đấy được lấy từ tiêu chuẩn Việt Nam TCVN 5773:1993TCVN 6056:1995, và cũng được lấy từ nghiên cứu của Viện Nghiên cứu Hán Nôm và các nhóm khác.[13] Tất cả các ký tự trong TCVN 5773:1993 và khoảng 95% các ký tự trong TCVN 6056:1995 đều có các codepoint tương ứng trong Unicode 5.1, tuy thế bản thân TCVN 5773:1993 lại ánh xạ hầu hết các ký tự của nó vào trong Khu Dùng Riêng (en) của Unicode.[14] Unicode 13.0 có thêm hai ký tự dấu phụ vào khối Biểu tượng và Dấu câu Chữ biểu ý (en), hai ký tự đó thường hay được sử dụng để báo biết các 'chữ mượn Hán'[lower-alpha 6] trong chữ Nôm.[15][16]

Hai bộ phông Nôm toàn diện nhất là phông Nôm Na Tống Light của Hội Bảo tồn Di sản Chữ Nôm[17] và phông HAN NOM A/HAN NOM B do cộng đồng phát triển,[18] cả hai phông này đều đặt một số lượng lớn các 'ký tự chưa chuẩn hóa' vào trong Khu Dùng Riêng của Unicode.

Cơ sở dữ liệu Unihan (en) của Hiệp hội Unicode có bao gồm cách đọc tiếng Việt cho một số ký tự nhưng không khu biệt giữa cách đọc Hán-Việt và cách đọc Nôm.

Giống như các hệ chữ viết CJKV (en) khác, chữ Nôm theo truyền thống được viết dọc (en), từ trên xuống dưới và từ phải qua trái.

Cả chữ Hán và chữ Nôm đều có thể được chú giải bằng cách dùng ký tự ruby.[19]

Tài liệu tham khảo

WikiPedia: Tiếng_Việt_và_máy_tính http://bogotiengviet.com/fontchu-bangma.htm http://www.enderminh.com/minh/vnconversions.aspx //books.google.com/books?id=SA92uQqTB-AC&pg=PA47 //books.google.com/books?id=aaZABAAAQBAJ&pg=PA37 http://vietstd.sourceforge.net/report/rep92.htm http://vietunicode.sourceforge.net/charset/ http://vietunicode.sourceforge.net/fonts/fonts_han... http://winvnkey.sourceforge.net/express-manual-for... http://winvnkey.sourceforge.net/some-special-funct... http://babel.hathitrust.org/cgi/pt?id=mdp.39015082...